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Определение позиций 
изменения диктора в речевом сигнале 


В статье рассматривается один из подходов к определению позиции изменения диктора в непрерывном 
голосовом сигнале. Предложенный подход базируется на использовании коэффициентов мэл-кепстр 
для построения характеристического вектора и решении о наличии или отсутствии точки изменения 
диктора на основе меры различия множеств характеристических векторов. 


Введение 


Во многих задачах, связанных с обработкой речевых сигналов и распознаванием 
речевой информации, необходимо знать, в каких местах речевого сигнала происхо- 
дит изменение диктора — лица, чей голос звучит в определенный промежуток вре- 
мени. В частности в задачах автоматизированного стенографирования [1-3] полезно 
использовать информацию о смене диктора для более качественной сегментации 
сигнала. В задачах дикторонезависимого распознавания речи информация о смене 
диктора позволяет системе адаптироваться под нового диктора. 

Задача определения точки изменения диктора состоит в том, чтобы определить 
позиции в звуковом сигнале, где происходит изменение диктора без информации о 
дикторах, известной априори. Отсутствие предварительной информации о дикторе 
отличает задачу определения изменения диктора от более традиционных задач рас- 
познавания или верификации диктора. Если бы предварительная информация о дик- 
торе была доступной, для решения задачи можно было бы применить традиционные 
методы идентификации и распознавания, такие, как методы линейной и нелинейной 
классификации и методы искусственных нейронных сетей. В реальных же задачах 
сегментации звукового сигнала получить предварительную информацию о дикторах 
для составления обучающей выборки и даже информацию о количестве различных 
дикторов в звуковом сигнале не представляется возможным. 

Важным аспектом задачи определения смены диктора является возможность 
решения задачи в реальном или квазиреальном времени, следовательно вычисли- 
тельная сложность алгоритма определения смены диктора должна быть относительно 
невысокой, чтобы решение задачи в реальном времени было возможным на широко- 
распространенном аппаратном обеспечении. 

Существует набор методов определения смены диктора в речевом сигнале [4-6], 
которые в большинстве своем базируются на использовании коэффициентов мэл- 
кепстр для построения характеристических векторов, но при этом используют раз- 
ные подходы для определения степени различия между множествами характеристи- 
ческих векторов или между отдельными характеристическими векторами. В частности 
в [6] в качестве меры различия предложена взвешенная мера, основанная на взвешен- 
ном Евклидовом расстоянии между векторами. При таком подходе для определения 


220 «Искусственный интеллект» 32010 


Определение позиций изменения диктора в речевом сигнале ЗК 


изменения диктора проводится сравнение двух соседних сегментов, причем каждый 
из сегментов представлен одним характеристическим вектором, который является 
усредненным характеристическим вектором для сегмента, помноженным на весовой 
коэффициент, зависящий от класса, к которому принадлежит рассматриваемый век- 
тор. Недостаток такого подхода состоит в том, что случайные возмущения сигнала в 
сегменте могут существенно исказить усредненный вектор, во избежание чего необ- 
ходимо проводить качественную нормализацию сигнала, что в реальных условиях не 
всегда осуществимо или целесообразно. 

Другой метод рассматривается в [4], [5]. Для определения точки изменения 
диктора авторы предлагают использовать меру дивергенции для определения расс- 
тояния между отдельно взятыми характеристическими векторами. Несмотря на то, 
что такой метод дает достаточно высокую точность и является не очень требователь- 
ным к вычислительным ресурсам, ввиду того, что в каждый момент времени рас- 
сматриваются лишь несколько соседних характеристических векторов, вероятность 
ошибочного определения точки изменения диктора достаточно высока из-за возмож- 
ных случайных возмущений в сигнале, локального изменения интонации и т.п. Ав- 
торы [4] предлагают дополнить характеристический вектор кроме коэффициентов 
мэл-кепстр, еще и коэффициентами линейного предсказания и питчем. Несмотря на то, 
что такой подход дает более широкое представление о голосовом сигнале в характе- 
ристическом векторе, он требует значительно большего числа вычислений для расчета 
дополнительных коэффициентов, что усложняет решение задачи в реальном времени. 

В данной статье предлагается еще один подход для определения точки измене- 
ния диктора в реальном времени. Предполагается, что на вход системы подается 
звуковой сигнал, содержащий голосовую информацию, прошедший предваритель- 
ную обработку для снижения уровня посторонних шумов. Количество дикторов в 
сигнале, число точек изменения диктора заранее неизвестны. Любая информация о 
характеристиках дикторов априори также неизвестна. Рассматривается выбор и по- 
строение характеристического вектора, приводится мера различия между множест- 
вами характеристических векторов и решение о присутствии изменения диктора в 
заданной точке на основании такой меры. Обсуждаются вопросы применения пред- 
ложенного алгоритма в системе автоматизированного стенографирования. 


Выбор и построение характеристического вектора 


Выбор характеристик для задачи определения изменения диктора аналогичен 
выбору характеристик для задачи идентификации и верификации диктора. Исследо- 
вания показали, что для задач распознавания диктора одной из самых подходящих 
характеристик являются коэффициенты мэл-кепстр [7]. 

Коэффициенты мэл-кепстр определяются как кепстр в области действительных 
чисел кратковременного звукового сигнала, полученный из преобразования Фурье 
этого сигнала. Отличие от простого кепстра состоит в том, что для разложения 
используется нелинейная шкала частот, которая приблизительно описывает особен- 
ности слухового восприятия информации человеком. 

Полагая, что дискретное преобразование Фурье входного сигнала задано 


№М-1 
Хх [= У мте””", 0<к<М, (1) 


п=0 


определяется набор М фильтров (т =1, 2,..., М), где фильтр т - это треугольный 
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фильтр, заданный как: 


О < Лт-| 

НЕВЕ кое НИИ 

Е ее и 
Н,= г 


2(Ит+П-^) 
(Лт+1- Лт - Ш)От+Ц- Лт] 
0,А>/[т+П 


Такие фильтры вычисляют средний спектр вокруг каждой из центральных 
частот с возрастающей шириной, как показано на рис. 1: 


‚[т]<к<АУт-+П 


Ло] ЛП Л2] Л3] 14] 15] Я 6] 17] 
Рисунок 1 — Набор треугольных фильтров для вычисления мэл-кепстра 


Пусть Г, и Г, - соответственно самая низкая и самая высокая частоты в наборе 
фильтров, заданные в Гц, Е, — частота дискретизации в Гц, М - количество фильт- 


ров в наборе, № - размер БИФ. Граничные точки фильтров /[т] тогда равномерно 
расположены по мэл-шкале: 


В _ В 
ед 9-85 [ Вр "ВБИ, (3) 
где 
Е _ Ь _ 
В (Б)= печ © | : (4) 


Как правило, для задач анализа голосовых сигналов используется М в преде- 
лах от 24 до 40, при этом при расчетах учитываются первые 13 коэффициентов мэл- 
кепстр [8]. 

При экспериментальной реализации системы алгоритм построения характери- 
стических векторов был реализован следующим образом: для вычисления мэл-кепстр 
проходим по сигналу окном типа Хэннинга длиной 1024 сэмплов (0,023 с при час- 
тоте дискретизации 44 100 Гц). Начало каждого следующего окна смещено на 10 мс 
от начала предыдущего. Так, для участка звукового сигнала, где происходит изме- 
нение диктора, коэффициенты мэл-кепстр на графике выглядят следующим образом: 

На рис. 2 представлен график изменения коэффициентов мэл-кепстр со време- 
нем в звуковом сигнале. Прямоугольником выделена область, где происходит смена 
диктора. На графике можно достаточно отчетливо увидеть различие между коэффи- 
циентами мэл-кепстр в левой (до точки смены диктора) и правой (после точки смены 
диктора) части графика. 
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Рисунок 2 — Изменение коэффициентов мэл-кепстр при смене диктора 


Мера различия между множествами 
характеристических векторов 


В реальном голосовом сигнале изменение диктора с достаточно большой ве- 
роятностью происходит в окружении одной из областей, где в сигнале присутствует 
пауза. Таким образом для нахождения точек изменения диктора в голосовом сигнале 
достаточно найти все паузы, в окружении которых возможно изменение диктора, 
построить множества характеристических векторов сигнала до и после паузы и 
сравнить эти множества между собой для принятия решения о том, есть ли в окру- 
жении данной паузы изменение диктора. Решение о наличии или отсутствии смены 
диктора принимается на основе вычисления различия между собой множеств харак- 
теристических векторов до и после паузы. Если условное расстояние между мно- 
жествами превышает вычисленный экспериментальным путем порог, то в окруже- 
нии данной паузы вероятнее всего есть смена диктора. 

Паузы в сигнале находятся аналогичным образом, как и в задаче сегменти- 
рования звукового сигнала для системы распределенного автоматизированного 
стенографирования 1]: по сигналу проходим прямоугольным окном заданной длины 
и вычисляем дисперсию амплитуды сигнала в рамках данного окна. Если дисперсия 
в рамках Данного окна не превышает вычисленного экспериментальным путем поро- 
гового значения, то утверждаем, что в соответствующей области сигнала есть пауза. 


Бо хнль-.ьХнь) < 91. (5) 


Здесь 1 — начало окна, для которого проводится анализ, к - длина окна, а 16) и 
экспериментально определенное пороговое значение. 
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Несколько следующих подряд областей сигнала, в которых дисперсия не пре- 
вышает порогового значения, объединяются в одну паузу. 
Пусть Х, — множество характеристических векторов звукового сигнала до паузы, 
а Х, — множество характеристических векторов сигнала после паузы. Тогда пред- 
положение о том, что в окружении данной паузы есть смена диктора возможно, исходя 
из того, что 
а(Х,Х,)> 0», (6) 
где 4(Х\,Х,) — мера различия между множествами векторов, а д, — эксперимен- 


тально определенный порог. 
Меру различия между множествами определим как медиану расстояний между 
всеми векторами каждого из сравниваемых: 


АМ, Хь) = ши (А(х,,хо,)) Ух, Е Ху, х2, ЕХ,. (7) 


В качестве расстояния между векторами можно использовать обыкновенное 
Евклидово расстояние между векторами: 


М 
Аи, хо) = Ут хп)*. (8) 
п=1 


Такая мера позволяет определить, насколько разные компоненты содержатся в 
каждом из множеств, определив, насколько далеко друг от друга находятся векторы 
каждого из множеств при помощи Евклидового расстояния. Использование медианы 
в качестве усредненного расстояния позволяет исключить возможные возмущения 
звукового сигнала в одном из множеств, которые бы могли дать слишком большое 
или слишком маленькое расстояния между одним или несколькими векторами из 
одного множества и векторами другого множества. Таким образом значительно 
уменьшается необходимость в предварительной нормализации звукового сигнала и 
избавлении его от случайных возмущений, которые могут создаваться звукозаписы- 
вающей аппаратурой или случайными посторонними шумами. 

Пороговое значение подбирается вручную в результате экспериментов таким 
образом, чтобы уменьшить количество неверно определенных точек изменения 
диктора и увеличить количество правильно определенных точек. Как правило, для 
вычисления порога достаточно проанализировать небольшой участок сигнала, где 
есть изменение диктора, в дальнейшем порог можно уточнять по мере появления 
новых дикторов. 


Реализация и экспериментальная проверка 


Описанный выше метод был реализован в рамках системы автоматизированного 
стенографирования для сегментации звукового сигнала по точкам изменения дик- 
тора. Вычисление точек изменения диктора происходит одновременно с нахождением 
пауз в звуковом сигнале и сегментации сигнала по паузам. Значение порогового 
параметра устанавливается вручную при конфигурации системы. 

Для проверки эффективности метода было проведено несколько испытаний на 
реальных звуковых сигналах англоязычным и украиноязычным текстом (для англо- 
язычных текстов использовались фрагменты обучающих фильмов, для украиноязыч- 
ных — записи фонограмм заседаний ученых советов по защите диссертаций Инсти- 
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тута кибернетики НАН Украины им. Глушкова). В результате экспериментов выяс- 
нились следующие особенности рассматриваемого подхода: 

1. Предложенный метод в целом дает достаточно точное распознавание точек 
смены диктора в различных условиях. Количество пропущенных точек смены 
диктора как правило не превышало 10 - 15% при правильном подборе пороговых 
значений. 

2. Подбор пороговых значений является нетривиальной задачей и требует 
достаточно точного определения порога вручную при конфигурации системы, при 
этом порог часто требует корректировки для различных участков сигнала. 

3. Несмотря на то, что точность определения смены диктора достаточно ве- 
лика, при определенных особенностях звукового сигнала количество неверно опре- 
деленных точек смены диктора (когда система указывала, что в данной точке есть 
смена диктора, когда ее там на самом деле нет) может быть также достаточно боль- 
шим. К таким особенностям звукового сигнала следует отнести существенное изме- 
нение интонации одним и тем же диктором, существенное изменение амплитуды 
сигнала и т.п. 

4. Предложенный алгоритм достаточно чувствителен к точному определению 
пауз в сигнале. Если в голосовом сигнале присутствует фоновая музыка или силь- 
ный фоновый шум, правильно определить паузы достаточно сложно, что в свою оче- 
редь отрицательно сказывается на количестве правильно определенных точек изме- 
нения диктора. 

5. Слишком длинные паузы, которые в середине могут содержать возмущение 
звукового сигнала (шум), также отрицательно сказываются на качестве определения 
точек смены диктора, так как случайные шумы могут быть восприняты алгоритмом 
как участок сигнала, содержащий голосовую информацию. 


Выводы и дальнейшее развитие предложенного подхода 

Несмотря на вышеперечисленные некоторые недостатки рассматриваемого под- 
хода, точность определения точек смены диктора достаточна для большинства при- 
менений, включая задачу сегментации сигнала в системе автоматизированного сте- 
нографирования. Качество определения точек изменения диктора при предложенном 
подходе можно повысить за счет следующего: 

1. Качественной ПОДГОТОВКИ звукового сигнала перед его сегментацией, в част- 
ности, избавлением сигнала от посторонних шумов. 

2. Автоматизированного определения пороговых значений ДЛЯ различных участ- 
КОВ звукового сигнала. 

3. Расширения характеристических векторов за счет добавления к ним, на- 
пример, информации о частоте основного тона сигнала (питча), что может повысить 
качество определения точек изменения диктора, особенно, когда происходит смена 
мужского голоса на женский И наоборот. 

Среди преимуществ рассматриваемого подхода также следует отметить его 
относительно невысокую требовательность к вычислительным ресурсам, ЧТО ПОЗВО- 
ляет применять его Для решения задачи в реальном времени. 
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Ю.Г. Кривонос, Ю.В. Крак, О.С. Загваздн 

Визначення змшни диктора у мовному сигнал! 

У статт! розглядаеться один з шдход\в до визначення позиций змшни диктора у неперервному мовному 
сигнал!. Запропонований шдхд базуеться на використанн! коефипентв мел-кепстр для побудови 
характеристичного вектора 1 прийнятт! рипення про 1снування чи в1дсутнасть точки змни диктора на 
основ! запропоновано! мри вдм1нност! множин характеристичних векторив. 


Уи.(. Кгууопо5, Уи.Г. КтаЁ, О.5. Разуазат 

ОеесЕ ЗреаКег СВапое ш Сопйпиоц$ Зреесв 51опа! 

Опе оЁ Фе арргоасВез ю 4еес{ зреаКег свапее ш сопйпиоч$ зреесВ $1епа|[ 1$ ргорозе4 ш Ше рарег. 
Зиесе{е4 арргоасн 1$ Базе оп изше 1е те]-Яедиепсу серзга1 сое Яс1ет$ о БаПА а сВагаметзИс уес‘юг. 
Рестз1оп оп ех15%епсе ог абзепсе оё зреаКег сБапзе аё а о1уеп рошё 1$ Базе оп а ргорозе4 @з5ипПагиу 
теазиге Бебмееп Фе зе оЁ свагасепзс уесбогз 
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